import pandas as pd
import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse
"""
已知我的excel文件格式如下：
链接	层级	标题	父链接	是否能访问	原因
https://www.ccgp-hebei.gov.cn	1	中国河北政府采购网		TRUE	
http://www.ccgp-hebei.gov.cn/province/PicNews/202303/t20230307_1765941.html	2	详细页面	https://www.ccgp-hebei.gov.cn	TRUE	
http://www.ccgp-hebei.gov.cn/	3	无标题	http://www.ccgp-hebei.gov.cn/province/PicNews/202303/t20230307_1765941.html	TRUE	
http://www.ccgp-hebei.gov.cn/province/	3	中国河北政府采购网	http://www.ccgp-hebei.gov.cn/province/PicNews/202303/t20230307_1765941.html	TRUE	
http://www.ccgp-hebei.gov.cn/province/map/201805/t20180523_847997.html	3	详细页面	http://www.ccgp-hebei.gov.cn/province/PicNews/202303/t20230307_1765941.html	TRUE	

帮我写个函数，输入excel文件名，增加一个域名字段，通过链接获取下域名填充。然后再增加一个“内链”字段，如果链接的域名是：www.ccgp-hebei.gov.cn，则字段填充为是，否则为否。

"""


def process_excel(input_filepath, output_filepath):
    # 读取Excel文件
    df = pd.read_excel(input_filepath)

    # 通过'链接'列提取域名并创建'域名'列
    df['域名'] = df['链接'].apply(lambda x: urlparse(x).netloc)

    # 创建'内链'列，如果域名是www.ccgp-hebei.gov.cn则标记为'是'，否则为'否'
    df['内链'] = df['域名'].apply(lambda x: '是' if x == 'www.ccgp-hebei.gov.cn' else '否')

    # 将处理后的数据保存到指定的输出文件路径
    df.to_excel(output_filepath, index=False)

    # 返回处理成功的信息
    return f"处理完成，结果已保存到 {output_filepath}"


# 使用示例
input_file = 'crawl_results_1983_change.xlsx'  # 输入 Excel 文件路径
output_file = 'crawl_results_1983_change2.xlsx'  # 输出更新后的 Excel 文件路径

process_excel(input_file, output_file)
